Ranking and risk-aware reinforcement learning

Mastane Achab

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Mastane Achab
Direction :	Stephan Clémençon, Aurélien Garivier
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques et informatique
Date :	Soutenance le 10/07/2020
Etablissement(s) :	Institut polytechnique de Paris
Ecole(s) doctorale(s) :	École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche :	établissement opérateur d'inscription : Télécom Paris (Palaiseau ; 1977-....)
	Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury :	Président / Présidente : Florence d' Alché-Buc
	Examinateurs / Examinatrices : Stephan Clémençon, Aurélien Garivier, Alexandra Carpentier, Michal Valko, Gergely Neu
	Rapporteurs / Rapporteuses : Alexandra Carpentier, Michal Valko

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage par renforcement (intelligence artificielle)

Apprentissage automatique

Mots clés libres

Minimisation du risque empirique

Ordonnancement

Bandit manchot

Apprentissage par renforcement

Résumé

FR |

EN

Les travaux de cette thèse se situent à l’interface de deux thématiques de l'apprentissage automatique : l’apprentissage de préférences d'une part, et l’apprentissage par renforcement de l'autre. La première consiste à percoler différents classements d’un même ensemble d’objets afin d’en extraire un ordre général, la seconde à identifier séquentiellement une stratégie optimale en observant des récompenses sanctionnant chaque action essayée. La structure de la thèse suit ce découpage thématique. En première partie, le paradigme de minimisation du risque empirique est utilisé à des fins d'ordonnancement. Partant du problème d’apprentissage supervisé de règles d’ordonnancement à partir de données étiquetées de façon binaire, une extension est proposée au cas où les étiquettes prennent des valeurs continues. Les critères de performance usuels dans le cas binaire, à savoir la courbe caractéristique de l’opérateur de réception (COR) et l’aire sous la courbe COR (ASC), sont étendus au cas continu : les métriques COR intégrée (CORI) et ASC intégrée (ASCI) sont introduites à cet effet. Le second problème d'ordonnancement étudié est celui de l'agrégation de classements à travers l'identification du consensus de Kemeny. En particulier, une relaxation au problème plus général de la réduction de la dimensionnalité dans l'espace des distributions sur le groupe symétrique est formulée à l'aide d'outils mathématiques empruntés à la théorie du transport optimal. La seconde partie de cette thèse s'intéresse à l'apprentissage par renforcement. Des problèmes de bandit manchot sont analysés dans des contextes où la performance moyenne n'est pas pertinente et où la gestion du risque prévaut. Enfin, le problème plus général de l'apprentissage par renforcement distributionnel, dans lequel le décideur cherche à connaître l'entière distribution de sa performance et non pas uniquement sa valeur moyenne, est considéré. De nouveaux opérateurs de programmation dynamique ainsi que leurs pendants atomiques mènent à de nouveaux algorithmes stochastiques distributionnels.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Ranking and risk-aware reinforcement learning

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Ranking and risk-aware reinforcement learning

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses